Language modeling, a central task in natural language processing, involves estimating a probability distribution over strings. In most cases, the estimated distribution sums to 1 over all finite strings. However, in some pathological cases, probability mass can ``leak'' onto the set of infinite sequences. In order to characterize the notion of leakage more precisely, this paper offers a measure-theoretic treatment of language modeling. We prove that many popular language model families are in fact tight, meaning that they will not leak in this sense. We also generalize characterizations of tightness proposed in previous works.
translated by 谷歌翻译
Many dynamical systems exhibit latent states with intrinsic orderings such as "ally", "neutral" and "enemy" relationships in international relations. Such latent states are evidenced through entities' cooperative versus conflictual interactions which are similarly ordered. Models of such systems often involve state-to-action emission and state-to-state transition matrices. It is common practice to assume that the rows of these stochastic matrices are independently sampled from a Dirichlet distribution. However, this assumption discards ordinal information and treats states and actions falsely as order-invariant categoricals, which hinders interpretation and evaluation. To address this problem, we propose the Ordered Matrix Dirichlet (OMD): rows are sampled conditionally dependent such that probability mass is shifted to the right of the matrix as we move down rows. This results in a well-ordered mapping between latent states and observed action types. We evaluate the OMD in two settings: a Hidden Markov Model and a novel Bayesian Dynamic Poisson Tucker Model tailored to political event data. Models built on the OMD recover interpretable latent states and show superior forecasting performance in few-shot settings. We detail the wide applicability of the OMD to other domains where models with Dirichlet-sampled matrices are popular (e.g. topic modeling) and publish user-friendly code.
translated by 谷歌翻译
In this paper, we seek to measure how much information a component in a neural network could extract from the representations fed into it. Our work stands in contrast to prior probing work, most of which investigates how much information a model's representations contain. This shift in perspective leads us to propose a new principle for probing, the architectural bottleneck principle: In order to estimate how much information a given component could extract, a probe should look exactly like the component. Relying on this principle, we estimate how much syntactic information is available to transformers through our attentional probe, a probe that exactly resembles a transformer's self-attention head. Experimentally, we find that, in three models (BERT, ALBERT, and RoBERTa), a sentence's syntax tree is mostly extractable by our probe, suggesting these models have access to syntactic information while composing their contextual representations. Whether this information is actually used by these models, however, remains an open question.
translated by 谷歌翻译
在构图上概括的能力是理解只能用有限数量的单词以人类语言构建的潜在无限句子数量的关键。研究NLP模型是否具有这种能力一直是一个有趣的话题:Scan(Lake and Baroni,2018)是专门针对该物业测试的一项任务。先前的工作已经使用群体等级的神经网络实现了令人印象深刻的经验结果,该神经网络自然编码了扫描的有用感应偏置(Gordon等,2020)。受此启发,我们引入了一种新型的团体等级架构,该结构结合了一个组不变的硬对准机制。我们发现,与现有的群体等级方法相比,我们的网络结构使其能够开发出更强的白毒属性。我们还发现,在扫描任务上,它的表现优于先前的群体等级网络。我们的结果表明,将群体等级性整合到各种神经体系结构中是一种潜在的研究途径,并证明了对此类架构的理论特性进行仔细分析的价值。
translated by 谷歌翻译
酒吧 - 希利尔的结构是正式语言理论的经典结果。它通过构造表明,无上下文语言与普通语言之间的相交本身是无上下文的。但是,其原始配方(Bar-Hillel等人,1961年)都不是其加权扩展(Nederhof和Satta,2003年)都无法使用$ \ epsilon $ -Arcs处理自动机。在此简短的说明中,我们将Bar-Hillel结构概括为即使自动机包含$ \ epsilon $ -Arcs,也可以正确计算交叉路口。我们进一步证明,我们的广义结构导致语法编码输入自动机和语法的结构,同时保留原始结构的渐近尺寸。
translated by 谷歌翻译
每个法律案件都以以下两种方式之一制定法律。它要么扩大其范围,在这种情况下,它设定了积极的先例,要么将其缩小范围,在这种情况下,它设定了负面的先例。虽然法律结果预测(这是对积极先例的预测,这无非是AI中越来越受欢迎的任务),但我们是第一个通过关注负面结果来调查负面先例预测的人。我们发现了现有模型预测正面和负面结果的能力中的不对称性。如果最新的结果预测模型预测75.06 F1的阳性结果,则他们预测仅在10.09 F1的负结果,比随机基线更糟。为了解决这一绩效差距,我们开发了两个新模型,灵感来自法院流程的动态。我们的第一个模型将积极的预测评分显着提高到77.15 F1,而我们的第二个模型将负结果预测性能翻了一番,达到24.01 F1。尽管有这种改进,但转移到负面结果的重点表明,在建模法律上,仍然有足够的增长空间。
translated by 谷歌翻译
将已知的原始概念重组为更大的新型组合是一种典型的人类认知能力。NLP中的大型神经模型是否在从数据中学习时获得此能力是一个悬而未决的问题。在本文中,我们从形式语言的角度看一下这个问题。我们使用确定性有限状态传感器来制作具有控制组合性的可控属性的无限数量数据集。通过对许多传感器进行随机采样,我们探讨了它们的哪些属性(状态数,字母大小,过渡次数等)有助于通过神经网络的组成关系可学习。通常,我们发现模型要么完全学习关系。关键是过渡覆盖范围,以每个过渡为400个示例设置软可学习性限制。
translated by 谷歌翻译
神经语言模型被广泛使用;但是,它们的模型参数通常需要适应时间和资源消耗的应用程序的特定域和任务。因此,最近引入了适配器作为模型适应的轻巧替代方案。它们由一组特定于任务的参数组成,这些参数缩短了训练时间和简单的参数组成。适配器训练和组成的简单性带来了新的挑战,例如保持适配器属性的概述,并有效地比较其生产的嵌入空间。为了帮助开发人员克服这些挑战,我们提供了双重贡献。首先,在与NLP研究人员的密切合作中,我们对支持适配器评估的方法进行了需求分析,并检测到了对固有的(即基于相似性的嵌入相似性)和外部(即基于预测的)解释方法的需求。 。其次,在收集的要求的激励下,我们设计了一个灵活的视觉分析工作空间,可以比较适配器属性。在本文中,我们讨论了几次设计迭代和替代方案,以进行交互式,比较视觉解释方法。我们的比较可视化表明,适应性嵌入媒介的差异和对​​各种人性化概念(例如,人的名字,人类素质)的预测结果。我们通过案例研究评估我们的工作空间,并表明,例如,根据Context-0(deNsTextualized)嵌入对语言偏见任务进行培训的适配器,引入了一种新型的偏见,其中单词(甚至与性别独立的单词)一样与女性代词更类似于女性。我们证明这些是上下文0嵌入的工件。
translated by 谷歌翻译
探测是一种流行的方法,可以辨别预先训练的语言模型表示中包含哪些语言信息。但是,选择探针模型的机制最近受到了激烈的争论,因为尚不清楚探针是否只是在提取信息或对语言属性进行建模。为了应对这一挑战,本文通过将探测作为提示任务提出探测来介绍一种新颖的探测方法。我们对五个探测任务进行实验,并表明我们的方法在提取信息方面比诊断探针更为可比或更好,而自行学习得更少。我们通过提示方法与注意力头修剪进一步结合探测,以分析模型将语言信息存储在其体系结构中的位置。然后,我们通过删除对该属性至关重要的头部并评估所得模型在语言建模上的性能来检查特定语言属性对预训练的有用性。
translated by 谷歌翻译
Sigmorphon 2022关于词素分割的共享任务挑战了将单词分解为一系列词素的系统,并涵盖了大多数类型的形态:化合物,衍生和弯曲。子任务1,单词级词素细分,涵盖了9种语言的500万个单词(捷克,英语,西班牙语,匈牙利语,法语,意大利语,俄语,拉丁语,蒙古语),并收到了7个团队的13个系统提交,最佳系统平均为97.29%F1在所有语言中得分,英语(93.84%)到拉丁语(99.38%)。子任务2,句子级的词素细分,涵盖了3种语言的18,735个句子(捷克,英语,蒙古人),从3个团队中收到10个系统提交,最好的系统优于所有三种最先进的子字体化方法(BPE(BPE),Ulm,Morfessor2)绝对30.71%。为了促进错误分析并支持任何类型的未来研究,我们发布了所有系统预测,评估脚本和所有黄金标准数据集。
translated by 谷歌翻译